原始数据极速上传NCBI SRA教程
本文转载自“美吉生物”,己获授权,有修改。
近日依旧收到不少老师的邮件,咨询如何将数据上传NCBI数据库的。今天小美就老话再谈,各位老师跟着小美再乘坐一次极速上传SRA的高铁,准备好了吗?Let's go!!!
老规矩,先注册一个“12306”的账号(已有账号的请跳过,*号标记必填,非*号标记可不填,下同): https://www.ncbi.nlm.nih.gov/account/register/
然后找到NCBI-submit“高铁入口”售票厅,注意不要进错了,下面的普快,你懂得!
https://www.ncbi.nlm.nih.gov/home/submit/
然后完成“实名制认证”后就可以买票上车了:
终于上车了,拿着车票左顾右盼地找到自己的座位!屁股还没坐热,乘务员MM就来查票了:
除了身份、车次信息外,还需要核对是否需要“补票”(选择新建bioproject和biosample)? 当然,我们最关心的还是什么时候“出站”(数据的释放时间一般尽可能选择文章发表之后,后续也可以根据实际需要进行更改)!
一路颠簸之后,心中盘算着“此行的目的”(给你的实验取个名字并给出简要描述):
昏昏沉沉小憩一阵过后,饿意来袭,打开包裹选择自己“喜欢的食物”(Sample Type:选择样本类型,参考下图选择,切勿乱选导致自己摄入过期食物而“中毒 ”(报错)!)
那如果没有带吃的怎么办?简单!到“餐车”查看售货“清单”上都有啥?(下载下图红框标识文件):
选择合乎口味的物品加入“购物车”(tsv文件,可用EXCEL打开,每列表格都有固定格式,特别是organism列切记准确填写,如果爆出“Warn”信息,则需要等待2个工作日方能重新进行该步骤,别问小美为什么知道,说多都是泪),然后“付款”(选择文件上传),当然他们只收“RMB”(只支持tsv或者txt格式文件上传)!
如果没看懂,不要紧,打开链接:http://www.n cbi.nlm.nih.gov/biosample /docs/submission/faq/,喝瓶原装Coca-Cola吧(说明书)!
下一步就是批量上传的关键——SRA metadata
同样的规格,不一样的表格,看下面(填写规则请查看下载的SRA_metadata表格文件sheet3中的Library and Platform Terms信息):
乘客们注意啦!终点站即将到达,请收拾好您的 “行李”(上传原始序列文件。)准备下车!
“行李”太多、太大带不动怎么办(这里许多老师可能会遇到数据量大,上传速度慢,用ftp中断的情况),小编这里提供几种托运行李的工具供各位选择:
最简单的方法
如果您的样本少,数据量小,您可以直接选择现在通过网页上传。
最快速的方法
这里用到NCBI推荐的aspera软件(但占用带宽也很明显,我们单位被禁止使用),下载及用法见下图:
将这些文件安装到电脑后;运行dos命令行窗口(怎么用看这个):
试试效果咋样
命令行:
ascp -i 之前下载key文件(带上文件目录) -QT -l100m(上传最大速度) -k1 -d 数据存存放的目录(目录以“\”结尾)
subasp@upload.ncbi.nlm.nih.gov:uploads/chun.luo@majorbio.com_KYyRWIub(邮箱_生成的随机码)/存放在NCBI服务器上的文件名称(自定义)/
当然100M您嫌慢,您可以往上调(反正3个样本20秒上传完毕小美已经很满足啦!)
最逼格的方法
如果您有服务器的情况下可在NCBI网页aspera下载处找到linux版本,然后本地化到服务器上(不会?很简单,找度娘)!
同样的方法在服务器里面就高大上了,有木有!
好啦!大家上传完成后就到了“终点站”(选择链接已上传的数据文件夹);
你看“到站”了,核实一下“车站信息”:
核实没问题后,“下车”(点击submit)不一会就到“目的地”(一般半个小时后即可看到上传成功后的SRP号)啦!
不知道,小美司机这一路的引导,各位的路途是否顺利?
还没有上传过原始数据的老师赶快试试吧!
猜你喜欢
10000+:肠道细菌 人体上的生命 宝宝与猫狗 梅毒狂想曲 提DNA发Nature 实验分析谁对结果影响大 Cell微生物专刊
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外150+ PI,1500+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”